#aprendizaje cero shots

Nuevo método conecta representaciones sin recompensa con preferencias en RL offline

Nuevo marco de aprendizaje por refuerzo offline que aprende representaciones sin recompensa y las afina con preferencias humanas, superando a métodos tradicionales en eficiencia.

2026-06-02 · 2 min